EvoClass
AI012
深入探討大型語言模型
自主代理、RLHF 與安全對齊
課程
第8課
講師
AI導師
學習目標
分析
GUI代理的架構元件,包括多代理系統中的規劃、決策與反思模組。
解釋
強化學習(RL)與人類反饋強化學習(RLHF)的運作機制,特別是獎勵模型與PPO在使代理行為符合人類價值觀中的作用。
評估
自主代理的安全風險與可靠性問題,包括分布外(OOD)錯誤、越獄攻擊及環境干擾等。